SCC-ICMC-USP - 1o. semestre de 2021

SCC5871/MAI5025 - APRENDIZADO DE MÁQUINA

Projeto Final

Profa. Roseli A. F. Romero

PAE: Guilherme V. Nardari

Nro do grupo: 5

Alunos:

  1. Bruno Ken Marchezepe
  2. Hevans Vinicius Pereira
  3. Renata Sarmet Smiderle Mendes
  4. Ricardo Franca Fernandes do Vale

Leitura e manipulação do dataset

Os dados trabalhados a seguir foram extraídos do domínio https://www.saopaulo.sp.gov.br/planosp/simi/dados-abertos e contém os seguintes atributos:

image.png

Visualização de Mapas

Clusterização

Kmeans

AffinityPropagation

AgglomerativeClustering

SpectralClustering

Considerando as métricas dos clusters e as distribuições destes, vamos seguir com o kmeans

Análises clusters - kmeans

Análise de cada variável comparando com a taxa de mortalidade

Análise de cada variável comparando com a quantidade de mortes a cada 100mil habitantes

Conclusão da clusterização

O cluster 5 se destacou como melhor cluster, independentemente se o critério base é taxa de mortalidade ou número de mortes a cada 100 mil habitantes.

Se fosse considerar o critério de número de mortes a cada 100 mil habitantes, o cluster 4 se destaca muito dos outros. Porém, os dados de saneamento básico e as demais features utilizadas parecem não ter tanta influência sobre o número de mortes a cada 100 mil habitantes.

Considerando a taxa de mortalidade como critério, o cluster 0 ser destaca dos outros. O interessante dessa abordagem é que podemos ver a relação disso com as features utilizadas na clusterização. Então, seguiremos com essa abordagem.

Portanto, o cluster 0 é escolhido como o pior e o cluster 5 é escolhido como o melhor, considerando a taxa de mortalidade.

Agora, vamos selecionar as 5 cidades do cluster 0 que possuem as maiores taxas de mortalidade e as 5 cidades do cluster 5 que possuem as menores taxas de mortalidade.

Em seguida, vamos analisar entre cada grupo, a vacinação e a segunda onda da COVID-19.

Dados de vacinação

Para fazer análises e ter uma melhor compreensão dos dados, utilizamos dados coletados do site https://opendatasus.saude.gov.br. Este site, mantido pelo Ministério da Saúde, contém diversas coleções de dados com informações variadas a respeito da COVID-19 no Brasil.

O dataset foi extraído do site https://opendatasus.saude.gov.br/dataset/bd-srag-2020 em 30 de junho de 2021 como um arquivo csv com tamanho aproximado de 60 Gb. Devido à dificuldade de se trabalhar com um arquivo tão grande decidiu-se trabalhar apenas com os dados do estado de São Paulo, além de realizar uma pré-seleção nas colunas de acordo com análise anterior, obtendo assim um arquivo com aproximadamente 3 Gb de tamanho.

Cada linha da tabela representa um registro de um paciente. Temos 8 variáveis:

Apenas o dataset do melhor cluster possui dados faltantes no nome da categoria da vacina.

Variáveis numéricas

Uma outra forma de entender a distribuição dos valores das variáveis é pelo histograma. Com o histograma é possível observar a frequência que determinado valor aparece e se há ou não outliers.

Analisando os histogramas das variáveis numéricas do DataFrame, podemos observar algumas características que já observamos na análise estatística descritiva, além de outras que só é possível observar visualmente.

Outra análise gráfica importante de ser feita é por meio do boxplot. Com ele, é possível visualizar o intervalo entre quartis e a presença, ou não, de outliers. Isso porque o boxplot segue a seguinte estrutura: todo ponto em um boxplot representa que há um valor na variável que pode ser considerado, por definição, como um outlier.

paciente_idade: Na análise do histograma, sugerimos a presença de outliers e, de acordo com o boxplot, há sim outliers tanto à direita, com pacientes com idade maior que 107 anos no melhor cluster e 98 anos no pior cluster, quanto à esquerda, com pacientes com idades menores que 14 anos no melhor cluster e 15 anos no pior cluster. Talvez alguns desses outliers superiores sejam verdadeiros, porém, segundo registros, a pessoa mais velha do mundo, chegou até 122 anos de idade. E sobre os outliers inferiores, é possível que alguns deles também sejam verdadeiros, porém teoricamente só estão recebendo a vacinação pessoas maiores que 18 anos.

vacina_dias_desde_aplicacao: Podemos confirmar que não há outliers e os dados estão mais inclinados à esquerda (recente), sendo que o pior cluster de fato se concentra mais na recência do que o melhor cluster.

Variáveis categóricas

De acordo com o gráfico de waffle podemos confirmar que, em ambos os clusters, a proporção de mulheres no DataFrame é levemente superior à proporção de homens.

De acordo com o gráfico de waffle podemos perceber que a proporção da população vacinada é bem diferente entre os dois clusters. No melhor cluster, podemos perceber que mais da metade da população vacinada é branca, do restante grande parte é não informado e uma pequena população é parda e amarela e por fim uma proporção bem pequena é preta e quase imperceptível é indígena.

Já no pior cluster, menos da metade da população vacinada é branca, quase a mesma proporção do outro cluster é não informado, e tem-se aqui uma proporção maior de amarelo e pardo, e também por fim uma proporção bem pequena é preta e quase imperceptível é indígena.

De acordo com o gráfico de waffle podemos perceber que em ambos os clusters, a grande maioria foi vacinada na categória de faixa etária.

No melhor cluster, a segunda categoria mais vacinada são trabalhadores da saúde, depois comorbidades e profissionais da educação. Já no pior cluster, a segunda categoria mais vacinada são comorbidades, seguido de trabalhadores da saúde e depois trabalhadores da educação. Os outros grupos são bem menos representativos.

De acordo com o gráfico de waffle podemos perceber que a distribuição da Covishield (Astrazeneca) e Coronavac são bem semelhantes entre si, com uma proporção pequena da PFIZER e quase insignificante da JANSSEN, esta última aparece um pouco mais no pior cluster.

De acordo com o gráfico de waffle podemos perceber que a grande maioria da vacinação foi aplicação da primeira dose, e no melhor cluster tem-se uma proporção um pouco maior de aplicação da segunda dose do que no pior cluster. A dose única (da vacina Janssen) está presente, mas com quantidade bem menor.

Tratamento dos dados - Valores inválidos, outliers e dados faltantes

Como vimos na análise, percebemos outliers na idade do paciente, tanto à direita, quanto à esquerda. Seria necessário uma conversa com especialistas para garantir que são valores inválidos de fato, como não temos esse contato, vamos nos restringir às regras de vacinação, que são para pessoas maiores de 18 anos e colocaremos como limitante superior o registro de pessoa mais velho do mundo, que é 122 anos.

Segunda onda

Best cities

Worst cities

Best + Worst cities

Podemos perceber que a vacinação está mais rádida nas cidades do melhor cluster.